Model Selection

Japanese Speech Recognition

# Japanese Speech Recognition

Parakeet Tdt Ctc 0.6b Ja

This model is a Japanese automatic speech recognition (ASR) model based on the FastConformer architecture, developed by NVIDIA and converted to MLX format.

Speech Recognition

Kotoba Whisper V2.2 Faster

This is a Japanese automatic speech recognition (ASR) model based on the Whisper architecture, converted to CTranslate2 format for improved inference efficiency.

Speech Recognition Japanese

Vlzcrz Whisper Small Japanese 2

A Japanese speech recognition model fine-tuned on the Common Voice 17.0 dataset based on openai/whisper-small

Speech Recognition

Transformers Japanese

Japanese Wav2vec2 Large Rs35kh

A Japanese automatic speech recognition model fine-tuned on the large-scale Japanese ASR corpus ReazonSpeech v2.0, based on the wav2vec 2.0 Large architecture

Speech Recognition

Transformers Japanese

reazon-research

Kotoba Whisper V2.0 Faster

A Whisper speech recognition model optimized for CTranslate2, specifically tailored for Japanese, providing efficient speech-to-text functionality.

Speech Recognition Japanese

Kotoba Whisper V2.1

Kotoba-Whisper-v2.1 is a Japanese automatic speech recognition (ASR) model based on Whisper, integrating an additional post-processing stack that automatically adds punctuation marks.

Speech Recognition

Transformers Japanese

Whisper Large V3 Japanese 4k Steps

A speech recognition model fine-tuned on the Common Voice 16.1 Japanese dataset based on openai/whisper-large-v3, trained for 4000 steps

Speech Recognition

Transformers Japanese

Nue ASR is an end-to-end Japanese speech recognition model that integrates pre-trained speech and language models, offering high accuracy and fast recognition speed.

Speech Recognition

Transformers Supports Multiple Languages

Faster Whisper Large V2 Mix Jp

This is the CTranslate2 converted version of the whisper-large-v2-mix-jp model, suitable for Japanese speech recognition tasks

Speech Recognition Japanese

Faster Whisper Large V2 Japanese 5k Steps

A Japanese automatic speech recognition (ASR) model based on Whisper Large V2, optimized with CTranslate2 for efficient inference.

Speech Recognition

Transformers Japanese

Whisper Base Japanese

This model is fine-tuned on the Common Voice, JVS, and JSUT datasets for Japanese speech recognition tasks using openai/whisper-base.

Speech Recognition

Transformers Japanese

Whisper Medium Jp

Japanese speech recognition model fine-tuned on the common_voice_11_0 dataset based on openai/whisper-medium

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Vp It S544

A Japanese automatic speech recognition model fine-tuned using the training set of Common Voice 7.0 (Japanese version), based on the facebook/wav2vec2-large-it-voxpopuli model.

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Unispeech Sat S884

A Japanese automatic speech recognition model fine-tuned based on the microsoft/unispeech-sat-large model, trained using the Common Voice 7.0 Japanese dataset.

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Wavlm S729

A Japanese automatic speech recognition model fine-tuned based on microsoft/wavlm-large, trained using the Common Voice 7.0 Japanese dataset

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Unispeech S569

A Japanese automatic speech recognition model fine-tuned using the Common Voice 7.0 (Japanese) dataset, based on the microsoft/unispeech-large-1500h-cv model

Speech Recognition

Transformers Japanese

Exp W2v2t Ja Xlsr 53 S109

Japanese automatic speech recognition model fine-tuned based on facebook/wav2vec2-large-xlsr-53, trained using Common Voice 7.0 Japanese dataset

Speech Recognition

Transformers Japanese

Wav2vec2 Xls R 1b Japanese

This model is a fine-tuned version of facebook/wav2vec2-xls-r-1b on public Japanese speech datasets, supporting automatic speech recognition tasks in Japanese.

Speech Recognition

Transformers Japanese

Wav2vec2 Large Xlsr 53 Japanese

Japanese speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supporting 16kHz sampling rate audio input

Speech Recognition Japanese

Wav2vec2 Xls R 300m Japanese

This is a Japanese automatic speech recognition model fine-tuned based on facebook/wav2vec2-xls-r-300m, specifically designed for transcribing Japanese audio into Hiragana text.

Speech Recognition

Transformers Japanese

W2v Hf Jsut Xlsr53

A Japanese automatic speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53 using the Common Voice and JSUT datasets.

Speech Recognition

Transformers Japanese

Wav2vec2 Large Xlsr Japanese

A fine-tuned model based on facebook/wav2vec2-large-xlsr-53 for Japanese speech recognition tasks.

Speech Recognition

Transformers Japanese

Wav2vec2 Live Japanese

A Japanese speech recognition model fine-tuned based on facebook/wav2vec2-large-xlsr-53, supporting hiragana output

Speech Recognition

Transformers Japanese

Wav2vec2 Xls R 300m Japanese

This is an automatic speech recognition (ASR) model fine-tuned on the Japanese Common Voice 8.0 dataset based on facebook/wav2vec2-xls-r-300m, supporting Japanese speech-to-text functionality.

Speech Recognition

Transformers Japanese

Wav2vec2 Large Japanese

Japanese speech recognition model fine-tuned from facebook/wav2vec2-large-xlsr-53, supports 16kHz sampling rate input

Speech Recognition Japanese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase